Przewidywanie genów
Przewidywanie genów to procedura służąca identyfikacji regionów DNA w genomie które odpowiedzialne są za kodowanie białek. W biologicznych bazach danych deponowanych jest coraz więcej sekwencji genomów różnych organizmów, jednak ich przetwarzanie stanowi istotny problem. Przewidywanie genów jest jednym z pierwszych i najważniejszych kroków w zrozumieniu genomu organizmu.
Określenie, czy sekwencja jest funkcjonalna różni się od zagadnienia określania funkcji genu. Przewidywanie funkcji genu i potwierdzenie istotności przewidywań wciąż wymaga eksperymentów in vivo[1].
Metody doświadczalne
[edytuj | edytuj kod]W metodach doświadczalnych daną sekwencję przeszukuje się w biologicznych bazach danych w postaci sekwencji EST, mRNA, produktów białek oraz homologicznych i ortologicznych sekwencji. Na podstawie sekwencji mRNA łatwo można wyprowadzić unikatową sekwencję DNA z której była ona transkrybowana. Na podstawie białka, rodzina możliwie kodujących je sekwencji DNA może być wyprowadzona poprzez użycie kodu genetycznego. Algorytmy przyrównania lokalnego takie jak BLAST, FASTA i Smith-Waterman poszukują regionów wysokiego podobieństwa między sekwencją docelową a uzyskaną w bazach danych. Wysoki stopień podobieństwa do znanych mRNA lub produktów białkowych zazwyczaj świadczy o tym, że region genomu jest genem kodującym białko. Takie podejście wymaga dodatkowego sekwencjonowania mRNA oraz produktów białkowych, co znacznie powiększa koszt analiz. Dodatkowo w złożonych organizmach jedynie część genów w danej chwili podlega ekspresji, co sprawia, że taka procedura dla wielu genów jest niemożliwa.
W genomach prokariotycznych geny składają się z dobrze poznanych sekwencji promotorowych, takich jak kaseta Pribnowa i miejsca wiązania czynników transkrypcyjnych, które łatwo jest zidentyfikować. Sekwencje kodujące białka istnieją w postaci jednej ciągłej otwartej ramki odczytu, która zawiera zazwyczaj od setek do tysięcy par zasad. Co więcej DNA kodujące białka podlega pewnej okresowości oraz innym statystycznym właściwościom, które łatwo jest wykryć w sekwencjach tych długości.
Znajdowanie genów ab initio w genach eukariotycznych, zwłaszcza u organizmów złożonych jak człowiek, jest znacznie bardziej wymagające z wielu powodów. Po pierwsze, sekwencje promotorowe i inne sygnały regulatorowe w genomach są bardziej złożone i mniej poznane niż u prokariotów, co czynie je trudniejszymi do rozpoznania. Dwa klasyczne przykłady sygnałów umożliwiających odkrycie genów to wyspy CpG oraz miejsca wiążące ogon poli-A.
Po drugie, mechanizmy splicingu wykorzystywane w komórkach eukariotycznych sprawiają, że pojedyncza sekwencja białkowa w genomie jest podzielona między kilka części kodujących (egzonów), oddzielonych sekwencjami niekodującymi (intronami). Typowe białko u ludzi może być podzielone na wiele eksonów, każdy długości mniej niż 200 par zasad, a niektórych długości 20-30 par zasad. Jest zatem znacznie trudniej wykryć okresowości oraz inne znane właściwości kodujących białka DNA.
Metody na ab initio
[edytuj | edytuj kod]Przewidywanie ab initio jest metodą, która oparta jest na zawartości genu oraz detekcji sygnału[2]. Zautomatyzowana adnotacja wciąż wymaga ręcznej weryfikacji. Istnieje kilka parametrów, które pozwalają na przewidywanie genów, takich jak zawartość par GC (ang. GC-content), wykorzystanie kodonów, GC-Skew i in.
Przypisy
[edytuj | edytuj kod]- ↑ http://www.ncbi.nlm.nih.gov/pubmed/20430068 Sleator RD (2002).
- ↑ http://www.ncbi.nlm.nih.gov/pubmed/12364589 Mathé C, Sagot MF, Schiex T, Rouzé P (2002).